課題

以下の指標の中から、一つを選択して、データを WDI で取得し、以下の分析をする。

  1. 各年毎のデータの数の棒グラフ
  2. 日本のデータの年の降順での表示
  3. 経年変化を表す折れ線グラフ
    1. 日本
    2. 南部アフリカ関税同盟の5カ国
    3. 選択したいくつかの国
  4. データが十分ある最近の年の値のヒストグラム
  5. データが十分ある最近の年の値の10カ国の値の棒グラフ
    1. 値が大きい方から
    2. 値が小さい方から

それぞれについて考察(気づいたこと、疑問など)を記す

2023.1.25. 23:59 までに Moodle の演習の課題ボックスに提出したものについては、なるべく、早く見て、フィードバックを書きます。それ以降に提出されたものも見ますが、フィードバックは遅くなると思ってください。

データ

  1. Government expenditure on education, total (% of GDP):SE.XPD.TOTL.GD.ZS [Link]

  2. School enrollment, primary (% gross):SE.PRM.ENRR [Link]

  3. School enrollment, secondary (% gross):SE.SEC.ENRR [Link]

  4. School enrollment, tertiary (% gross):SE.TER.ENRR [Link]

  5. Mortality rate, under-5 (per 1,000 live births):SH.DYN.MORT [Link]

  6. School enrollment, primary and secondary (gross), gender parity index (GPI):SE.ENR.PRSC.FM.ZS [Link]

  7. Ratio of female to male labor force participation rate (%) (modeled ILO estimate):SL.TLF.CACT.FM.ZS [Link]

  8. Unemployment, female (% of female labor force) (modeled ILO estimate):SL.UEM.TOTL.FE.ZS [Link]

  9. Unemployment, male (% of male labor force) (modeled ILO estimate):SL.UEM.TOTL.MA.ZS [Link]

  10. Net official development assistance and official aid received (current US$) DT.ODA.ALLD.CD [Link]

1. 国の教育に関する支出

概要:国内総生産(GDP)に対する、国の教育に関する支出(Government expenditure on education, total (% of GDP))のデータの分析を行う

データ

Government expenditure on education, total (% of GDP):SE.XPD.TOTL.GD.ZS [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
write_csv(df_ed_exp, "data/ed_exp.csv")
df_ed_exp <- read_csv("data/ed_exp.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, ed_exp
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_ed_exp
str(df_ed_exp)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country: chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c  : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c  : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year   : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ ed_exp : num [1:16758] 3.91 4.63 4.35 4.54 4.74 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   ed_exp = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の教育費(% of GDP)

df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))

3. 経年変化

a. 日本

df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()

気づいたこと・疑問

  • 1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

  • 2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

b. 南部アフリカ関税同盟

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

c. ラテンアメリカ4カ国

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")

b. 値が小さい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")

2. 初等学校就学率

データ

  • School enrollment, primary (% gross):SE.PRM.ENRR [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_primary <- WDI(indicator = c(primary = "SE.PRM.ENRR"))
write_csv(df_primary, "data/primary.csv")
df_primary <- read_csv("data/primary.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, primary
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_primary
str(df_primary)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country: chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c  : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c  : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year   : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ primary: num [1:16758] 105 105 106 105 104 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   primary = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_primary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_primary |> drop_na(primary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の初等学校就学率

df_primary |> filter(country == "Japan") |> 
  drop_na(primary) |> arrange(desc(year))

3. 経年変化

a. 日本

df_primary |> filter(country == "Japan") |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line()

気づいたこと・疑問

  • 1970年代の急激な上昇・下降、1980年ごろから上昇、そこで、100 を超えている。1995年ごろからは、減少しているが、まだ、100以上である。何が原因なのだろう。

b. 南部アフリカ関税同盟

df_primary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_primary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 100を超えている。

c. ラテンアメリカ4カ国

df_primary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_primary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_primary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(primary) |>
  ggplot(aes(primary)) + geom_histogram(binwidth = 5)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_primary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 102.73683
SAF <- df_primary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(primary)
df_primary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(primary) |>
  ggplot() + geom_histogram(aes(primary), binwidth = 5) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の初等学校就学率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_primary |> filter(year == 2020) |> drop_na(primary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(primary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, primary), primary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "初等学校就学率")

b. 値が小さい方から

df_primary |> filter(year == 2020) |> drop_na(primary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(primary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, primary)), primary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "初等学校就学率")

3. 中等学校就学率

データ

  • School enrollment, secondary (% gross):SE.SEC.ENRR [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_secondary <- WDI(indicator = c(secondary = "SE.SEC.ENRR"))
write_csv(df_secondary, "data/secondary.csv")
df_secondary <- read_csv("data/secondary.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, secondary
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_secondary
str(df_secondary)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country  : chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c    : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c    : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year     : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ secondary: num [1:16758] NA NA 43.8 43.4 43.2 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   secondary = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_secondary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_secondary |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_secondary |> drop_na(secondary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の中等学校就学率

df_secondary |> filter(country == "Japan") |> 
  drop_na(secondary) |> arrange(desc(year))

3. 経年変化

a. 日本

df_secondary |> filter(country == "Japan") |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line()

気づいたこと・疑問

  • 2000年ごろから減少、その後も変化がある。何が原因なのだろう。

b. 南部アフリカ関税同盟

df_secondary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_secondary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、一定して上昇している。

c. ラテンアメリカ4カ国

df_secondary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_secondary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_secondary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(secondary) |>
  ggplot(aes(secondary)) + geom_histogram(binwidth = 10)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_secondary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 102.84480
SAF <- df_secondary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(secondary)
df_secondary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(secondary) |>
  ggplot() + geom_histogram(aes(secondary), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の中等学校就学率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_secondary |> filter(year == 2020) |> drop_na(secondary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(secondary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, secondary), secondary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "secondary school enrollment")

b. 値が小さい方から

df_secondary |> filter(year == 2020) |> drop_na(secondary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(secondary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, secondary)), secondary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "secondary schooll enrollment")

4. 中等学校後の就学率

データ

  • School enrollment, tertiary (% gross):SE.TER.ENRR [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_tertiary <- WDI(indicator = c(tertiary = "SE.TER.ENRR"))
write_csv(df_tertiary, "data/tertiary.csv")
df_tertiary <- read_csv("data/tertiary.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, tertiary
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_tertiary
str(df_tertiary)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country : chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c   : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c   : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year    : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ tertiary: num [1:16758] NA 8.85 9.23 8.81 8.9 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   tertiary = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_tertiary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_tertiary |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_tertiary |> drop_na(tertiary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の教育費(% of GDP)

df_tertiary |> filter(country == "Japan") |> 
  drop_na(tertiary) |> arrange(desc(year))

3. 経年変化

a. 日本

df_tertiary |> filter(country == "Japan") |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line()

気づいたこと・疑問

  • 1970年代の急激な上昇、1990年ごろからまた増加は、何が原因なのだろう。

  • どのように、中等学校後について定めているのだろう。

b. 南部アフリカ関税同盟

df_tertiary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_tertiary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

c. ラテンアメリカ4カ国

df_tertiary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_tertiary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_tertiary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(tertiary) |>
  ggplot(aes(tertiary)) + geom_histogram(binwidth = 10)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_tertiary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 62.13584
SAF <- df_tertiary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(tertiary)
df_tertiary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(tertiary) |>
  ggplot() + geom_histogram(aes(tertiary), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の中等学校後の就学率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_tertiary |> filter(year == 2020) |> drop_na(tertiary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(tertiary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, tertiary), tertiary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "tertiary school enrollment")

b. 値が小さい方から

df_tertiary |> filter(year == 2020) |> drop_na(tertiary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(tertiary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, tertiary)), tertiary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "tertiary school enrollment")

5. 五歳未満の死亡率

データ

  • Mortality rate, under-5 (per 1,000 live births):SH.DYN.MORT [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_under5 <- WDI(indicator = c(under5 = "SH.DYN.MORT"))
write_csv(df_under5, "data/under5.csv")
df_under5 <- read_csv("data/under5.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, under5
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_under5
str(df_under5)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country: chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c  : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c  : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year   : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ under5 : num [1:16758] NA 57.3 59.1 60.9 62.9 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   under5 = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_under5 |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_under5 |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_under5 |> drop_na(under5) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 五歳未満死亡率(1000人あたり)

df_under5 |> filter(country == "Japan") |> 
  drop_na(under5) |> arrange(desc(year))

3. 経年変化

a. 日本

df_under5 |> filter(country == "Japan") |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line()

気づいたこと・疑問

  • 継続的に減少している。

  • 1960年ごろは40% ということは、1950年ごろは、50% ぐらいだったのだろうか。

b. 南部アフリカ関税同盟

df_under5 |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_under5 |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 2000年すぎに上昇しているが、それ以外は、減少している。
  • 紛争だろうか。

c. ラテンアメリカ4カ国

df_under5 |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_under5 |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_under5 |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(under5) |>
  ggplot(aes(under5)) + geom_histogram(binwidth = 10)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_under5 |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 2.4
SAF <- df_under5 |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(under5)
df_under5 |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(under5) |>
  ggplot() + geom_histogram(aes(under5), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "五歳未満の死亡率(1000人あたり)", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_under5 |> filter(year == 2020) |> drop_na(under5) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(under5)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, under5), under5)) + geom_col() + 
  coord_flip() + labs(title = "五歳未満の死亡率(1000人あたり)", x = "country")

b. 値が小さい方から

df_under5 |> filter(year == 2020) |> drop_na(under5) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(under5) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, under5)), under5)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", y = "under 5 mortality", x = "country")

6. 初等中等学校就学率(性差)

データ

  • School enrollment, primary and secondary (gross), gender parity index (GPI):SE.ENR.PRSC.FM.ZS [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_school_gpi <- WDI(indicator = c(school_gpi = "SE.ENR.PRSC.FM.ZS"))
write_csv(df_school_gpi, "data/school_gpi.csv")
df_school_gpi <- read_csv("data/school_gpi.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, school_gpi
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_school_gpi
str(df_school_gpi)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country   : chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c     : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c     : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year      : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ school_gpi: num [1:16758] NA NA 0.944 0.941 0.94 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   school_gpi = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_school_gpi |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_school_gpi |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_school_gpi |> drop_na(school_gpi) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の初等中等学校就学率における GPI

df_school_gpi |> filter(country == "Japan") |> 
  drop_na(school_gpi) |> arrange(desc(year))

3. 経年変化

a. 日本

df_school_gpi |> filter(country == "Japan") |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line()

気づいたこと・疑問

  • 1995年ごろまでは揺らぎがある。そのあとは、下降。

  • 差が小さいので、あまり、気にするのは適切ではないかもしれない。

b. 南部アフリカ関税同盟

df_school_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> 
  drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_school_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • ゆるやかに減少。1.0 に近づいている。

c. ラテンアメリカ4カ国

df_school_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_school_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、2020年のデータは少ないので、2019年について見てみる。

df_school_gpi |> filter(year == 2019) |> filter(!(country %in% REGION))|>
  drop_na(school_gpi) |>
  ggplot(aes(school_gpi)) + geom_histogram(binwidth = 0.02)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_school_gpi |> filter(year == 2019) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 1.00341 # no recent data after 2019
SAF <- df_school_gpi |> filter(year == 2019) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(school_gpi)
df_school_gpi |> filter(year == 2019) |> filter(!(country %in% REGION))|>
  drop_na(school_gpi) |>
  ggplot() + geom_histogram(aes(school_gpi), binwidth = 0.02) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2019年の初等中等学校就学率 GPI", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_school_gpi |> filter(year == 2019) |> drop_na(school_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(school_gpi)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, school_gpi), school_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "primary and secondary enrollment, GPI")

b. 値が小さい方から

df_school_gpi |> filter(year == 2019) |> drop_na(school_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(school_gpi) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, school_gpi)), school_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "primary and secondary enrollment, GPI")

7. 女性就労率

データ

  • Ratio of female to male labor force participation rate (%) (modeled ILO estimate):SL.TLF.CACT.FM.ZS [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_job_gpi <- WDI(indicator = c(job_gpi = "SL.TLF.CACT.FM.ZS"))
write_csv(df_job_gpi, "data/job_gpi.csv")
df_job_gpi <- read_csv("data/job_gpi.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, job_gpi
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_job_gpi
str(df_job_gpi)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country: chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c  : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c  : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year   : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ job_gpi: num [1:16758] 87.5 87.2 86.7 86.9 86.6 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   job_gpi = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_job_gpi |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_job_gpi |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_job_gpi |> drop_na(job_gpi) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の女性就労率

df_job_gpi |> filter(country == "Japan") |> 
  drop_na(job_gpi) |> arrange(desc(year))

3. 経年変化

a. 日本

df_job_gpi |> filter(country == "Japan") |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line()

気づいたこと・疑問

  • 2000年ごろからは上昇している。どんな政策変更があったのだろうか。

  • このまま、上昇すると、2040年ごろには、90を超え、100に近づく。それで、問題は解決したと言えるのだろうか。

b. 南部アフリカ関税同盟

df_job_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_job_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 全体的には上昇している。

c. ラテンアメリカ4カ国

df_job_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_job_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_job_gpi |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(job_gpi) |>
  ggplot(aes(job_gpi)) + geom_histogram(binwidth = 10)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_job_gpi |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 74.51027
SAF <- df_job_gpi |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(job_gpi)
df_job_gpi |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(job_gpi) |>
  ggplot() + geom_histogram(aes(job_gpi), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "女性の就労率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_job_gpi |> filter(year == 2020) |> drop_na(job_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(job_gpi)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, job_gpi), job_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "labor force participation rate of ")

b. 値が小さい方から

df_job_gpi |> filter(year == 2020) |> drop_na(job_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(job_gpi) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, job_gpi)), job_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "labor force participation rate")

8. 女性失業率

データ

  • Unemployment, female (% of female labor force) (modeled ILO estimate):SL.UEM.TOTL.FE.ZS [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_female_unemploy <- WDI(indicator = c(female_unemploy = "SL.UEM.TOTL.FE.ZS"))
write_csv(df_female_unemploy, "data/female_unemploy.csv")
df_female_unemploy <- read_csv("data/female_unemploy.csv")
Rows: 16758 Columns: 5── Column specification ──────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): country, iso2c, iso3c
dbl (2): year, female_unemploy
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

データの確認

df_female_unemploy
str(df_female_unemploy)
spc_tbl_ [16,758 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ country        : chr [1:16758] "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" "Africa Eastern and Southern" ...
 $ iso2c          : chr [1:16758] "ZH" "ZH" "ZH" "ZH" ...
 $ iso3c          : chr [1:16758] "AFE" "AFE" "AFE" "AFE" ...
 $ year           : num [1:16758] 2022 2021 2020 2019 2018 ...
 $ female_unemploy: num [1:16758] 8.51 8.5 8.12 7.62 7.42 ...
 - attr(*, "spec")=
  .. cols(
  ..   country = col_character(),
  ..   iso2c = col_character(),
  ..   iso3c = col_character(),
  ..   year = col_double(),
  ..   female_unemploy = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_female_unemploy |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_female_unemploy |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_female_unemploy |> drop_na(female_unemploy) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の女性失業率

df_female_unemploy |> filter(country == "Japan") |> 
  drop_na(female_unemploy) |> arrange(desc(year))

3. 経年変化

a. 日本

df_female_unemploy |> filter(country == "Japan") |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line()

気づいたこと・疑問

  • 2000年ごろから、2010年ごろまで非常に高い水準になっている。何が原因なのだろう。

b. 南部アフリカ関税同盟

df_female_unemploy |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_female_unemploy |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、23%程度。

c. ラテンアメリカ4カ国

df_female_unemploy |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_female_unemploy |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_female_unemploy |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(female_unemploy) |>
  ggplot(aes(female_unemploy)) + geom_histogram(binwidth = 2)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_female_unemploy |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 2.520
SAF <- df_female_unemploy |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(female_unemploy)
df_female_unemploy |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(female_unemploy) |>
  ggplot() + geom_histogram(aes(female_unemploy), binwidth = 2) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の女性の求職率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_female_unemploy |> filter(year == 2020) |> drop_na(female_unemploy) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(female_unemploy)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, female_unemploy), female_unemploy)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "unemployment rate, female, 2020")

b. 値が小さい方から

df_female_unemploy |> filter(year == 2020) |> drop_na(female_unemploy) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(female_unemploy) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, female_unemploy)), female_unemploy)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "unemployment rate, female, 2020")

男性失業率

データ

  • Unemployment, male (% of male labor force) (modeled ILO estimate):SL.UEM.TOTL.MA.ZS [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
write_csv(df_ed_exp, "data/ed_exp.csv")
df_ed_exp <- read_csv("data/ed_exp.csv")

データの確認

df_ed_exp
str(df_ed_exp)
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の教育費(% of GDP)

df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))

3. 経年変化

a. 日本

df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()

気づいたこと・疑問

  • 1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

  • 2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

b. 南部アフリカ関税同盟

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

c. ラテンアメリカ4カ国

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")

b. 値が小さい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")

10. 負債率

データ

  • Net official development assistance and official aid received (current US$) DT.ODA.ALLD.CD [Link]

データの取得

準備

library(tidyverse)
library(WDI)

WDI パッケージを使って、直接データをダウンロードし、変数名を、ed_exp に指定。

df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
write_csv(df_ed_exp, "data/ed_exp.csv")
df_ed_exp <- read_csv("data/ed_exp.csv")

データの確認

df_ed_exp
str(df_ed_exp)
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)

分析する国のリスト

南部アフリカ関税同盟 The Southern African Customs Union (SACU)

SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")

ラテンアメリカでジニ指数が大きい4カ国

CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")

分析

1. 各年毎のデータの数の棒グラフ

df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()

視覚化

2. 日本の教育費(% of GDP)

df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))

3. 経年変化

a. 日本

df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()

気づいたこと・疑問

  • 1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

  • 2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

b. 南部アフリカ関税同盟

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

気づいたこと・疑問

  • 平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

c. ラテンアメリカ4カ国

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))

参考:平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。

df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)

分布

データの数から、まずは、2020年について見てみる。

df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)

参考:SACU の5カ国の値を縦線で書き込むには下のようにします。

df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 

参考:日本とSACU の5カ国の値を縦線で書き込むには下のようにします。

JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本:青、SACU:赤")

データが十分ある最近の年の値の10カ国の値の棒グラフ

a. 値が大きい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")

b. 値が小さい方から

df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
---
title: "探索的データ分析0 - EDA0"
author: "H. Suzuki"
date: "2024年1月23日"
output:
  html_notebook: default
---

## 課題

以下の指標の中から、一つを選択して、データを WDI で取得し、以下の分析をする。

1.  各年毎のデータの数の棒グラフ
2.  日本のデータの年の降順での表示
3.  経年変化を表す折れ線グラフ
    a.  日本
    b.  南部アフリカ関税同盟の５カ国
    c.  選択したいくつかの国
4.  データが十分ある最近の年の値のヒストグラム
5.  データが十分ある最近の年の値の10カ国の値の棒グラフ
    a.  値が大きい方から
    b.  値が小さい方から

それぞれについて考察（気づいたこと、疑問など）を記す

**2023.1.25. 23:59** までに Moodle の演習の課題ボックスに提出したものについては、なるべく、早く見て、フィードバックを書きます。それ以降に提出されたものも見ますが、フィードバックは遅くなると思ってください。

### データ

1.  Government expenditure on education, total (% of GDP)：SE.XPD.TOTL.GD.ZS [[Link](https://data.worldbank.org/indicator/SE.XPD.TOTL.GD.ZS)]

2.  School enrollment, primary (% gross)：SE.PRM.ENRR [[Link](https://data.worldbank.org/indicator/SE.PRM.ENRR)]

3.  School enrollment, secondary (% gross)：SE.SEC.ENRR [[Link](https://data.worldbank.org/indicator/SE.SEC.ENRR)]

4.  School enrollment, tertiary (% gross)：SE.TER.ENRR [[Link](https://data.worldbank.org/indicator/SE.TER.ENRR)]

5.  Mortality rate, under-5 (per 1,000 live births)：SH.DYN.MORT [[Link](https://databank.worldbank.org/metadataglossary/world-development-indicators/series/SH.DYN.MORT)]

6.  School enrollment, primary and secondary (gross), gender parity index (GPI)：SE.ENR.PRSC.FM.ZS [[Link](https://data.worldbank.org/indicator/SE.ENR.PRSC.FM.ZS)]

7.  Ratio of female to male labor force participation rate (%) (modeled ILO estimate)：SL.TLF.CACT.FM.ZS [[Link](https://data.worldbank.org/indicator/SL.TLF.CACT.FM.ZS)]

8.  Unemployment, female (% of female labor force) (modeled ILO estimate)：SL.UEM.TOTL.FE.ZS [[Link](https://data.worldbank.org/indicator/SL.UEM.TOTL.FE.ZS)]

9.  Unemployment, male (% of male labor force) (modeled ILO estimate)：SL.UEM.TOTL.MA.ZS [[Link](https://data.worldbank.org/indicator/SL.UEM.TOTL.MA.ZS)]

10. Net official development assistance and official aid received (current US\$) DT.ODA.ALLD.CD [[Link](https://data.worldbank.org/indicator/DT.ODA.ALLD.CD)]

# 1. 国の教育に関する支出

> 概要：国内総生産（GDP）に対する、国の教育に関する支出（Government expenditure on education, total (% of GDP)）のデータの分析を行う

## データ

Government expenditure on education, total (% of GDP)：SE.XPD.TOTL.GD.ZS [[Link](https://data.worldbank.org/indicator/SE.XPD.TOTL.GD.ZS)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
```

```{r eval = FALSE}
write_csv(df_ed_exp, "data/ed_exp.csv")
```

```{r}
df_ed_exp <- read_csv("data/ed_exp.csv")
```

### データの確認

```{r}
df_ed_exp
```

```{r}
str(df_ed_exp)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の教育費（% of GDP）

```{r}
df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()
```

**気づいたこと・疑問**

-   1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

-   2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

#### b. 南部アフリカ関税同盟

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

#### c. ラテンアメリカ４カ国

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```

#### b. 値が小さい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```

# 2. 初等学校就学率

### データ

-   School enrollment, primary (% gross)：SE.PRM.ENRR [[Link](https://data.worldbank.org/indicator/SE.PRM.ENRR)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_primary <- WDI(indicator = c(primary = "SE.PRM.ENRR"))
```

```{r eval = FALSE}
write_csv(df_primary, "data/primary.csv")
```

```{r}
df_primary <- read_csv("data/primary.csv")
```

### データの確認

```{r}
df_primary
```

```{r}
str(df_primary)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_primary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_primary |> drop_na(primary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の初等学校就学率

```{r}
df_primary |> filter(country == "Japan") |> 
  drop_na(primary) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_primary |> filter(country == "Japan") |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line()
```

**気づいたこと・疑問**

-   1970年代の急激な上昇・下降、1980年ごろから上昇、そこで、100 を超えている。1995年ごろからは、減少しているが、まだ、100以上である。何が原因なのだろう。

#### b. 南部アフリカ関税同盟

```{r}
df_primary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_primary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   100を超えている。

#### c. ラテンアメリカ４カ国

```{r}
df_primary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_primary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(primary) |>
  ggplot(aes(year, primary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_primary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(primary) |>
  ggplot(aes(primary)) + geom_histogram(binwidth = 5)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_primary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 102.73683
SAF <- df_primary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(primary)
df_primary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(primary) |>
  ggplot() + geom_histogram(aes(primary), binwidth = 5) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の初等学校就学率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_primary |> filter(year == 2020) |> drop_na(primary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(primary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, primary), primary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "初等学校就学率")
```

#### b. 値が小さい方から

```{r}
df_primary |> filter(year == 2020) |> drop_na(primary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(primary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, primary)), primary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "初等学校就学率")
```

# 3. 中等学校就学率

### データ

-   School enrollment, secondary (% gross)：SE.SEC.ENRR [[Link](https://data.worldbank.org/indicator/SE.SEC.ENRR)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_secondary <- WDI(indicator = c(secondary = "SE.SEC.ENRR"))
```

```{r eval = FALSE}
write_csv(df_secondary, "data/secondary.csv")
```

```{r}
df_secondary <- read_csv("data/secondary.csv")
```

### データの確認

```{r}
df_secondary
```

```{r}
str(df_secondary)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_secondary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_secondary |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_secondary |> drop_na(secondary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の中等学校就学率

```{r}
df_secondary |> filter(country == "Japan") |> 
  drop_na(secondary) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_secondary |> filter(country == "Japan") |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line()
```

**気づいたこと・疑問**

-   2000年ごろから減少、その後も変化がある。何が原因なのだろう。

#### b. 南部アフリカ関税同盟

```{r}
df_secondary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_secondary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、一定して上昇している。

#### c. ラテンアメリカ４カ国

```{r}
df_secondary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_secondary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(secondary) |>
  ggplot(aes(year, secondary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_secondary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(secondary) |>
  ggplot(aes(secondary)) + geom_histogram(binwidth = 10)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_secondary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 102.84480
SAF <- df_secondary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(secondary)
df_secondary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(secondary) |>
  ggplot() + geom_histogram(aes(secondary), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の中等学校就学率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_secondary |> filter(year == 2020) |> drop_na(secondary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(secondary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, secondary), secondary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "secondary school enrollment")
```

#### b. 値が小さい方から

```{r}
df_secondary |> filter(year == 2020) |> drop_na(secondary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(secondary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, secondary)), secondary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "secondary schooll enrollment")
```

# 4. 中等学校後の就学率

### データ

-   School enrollment, tertiary (% gross)：SE.TER.ENRR [[Link](https://data.worldbank.org/indicator/SE.TER.ENRR)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_tertiary <- WDI(indicator = c(tertiary = "SE.TER.ENRR"))
```

```{r eval = FALSE}
write_csv(df_tertiary, "data/tertiary.csv")
```

```{r}
df_tertiary <- read_csv("data/tertiary.csv")
```

### データの確認

```{r}
df_tertiary
```

```{r}
str(df_tertiary)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_tertiary |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_tertiary |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_tertiary |> drop_na(tertiary) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の教育費（% of GDP）

```{r}
df_tertiary |> filter(country == "Japan") |> 
  drop_na(tertiary) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_tertiary |> filter(country == "Japan") |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line()
```

**気づいたこと・疑問**

-   1970年代の急激な上昇、1990年ごろからまた増加は、何が原因なのだろう。

-   どのように、中等学校後について定めているのだろう。

#### b. 南部アフリカ関税同盟

```{r}
df_tertiary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_tertiary |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

#### c. ラテンアメリカ４カ国

```{r}
df_tertiary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_tertiary |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(tertiary) |>
  ggplot(aes(year, tertiary)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_tertiary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(tertiary) |>
  ggplot(aes(tertiary)) + geom_histogram(binwidth = 10)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_tertiary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 62.13584
SAF <- df_tertiary |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(tertiary)
df_tertiary |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(tertiary) |>
  ggplot() + geom_histogram(aes(tertiary), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の中等学校後の就学率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_tertiary |> filter(year == 2020) |> drop_na(tertiary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(tertiary)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, tertiary), tertiary)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "tertiary school enrollment")
```

#### b. 値が小さい方から

```{r}
df_tertiary |> filter(year == 2020) |> drop_na(tertiary) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(tertiary) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, tertiary)), tertiary)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "tertiary school enrollment")
```

# 5. 五歳未満の死亡率

## データ

-   Mortality rate, under-5 (per 1,000 live births)：SH.DYN.MORT [[Link](https://databank.worldbank.org/metadataglossary/world-development-indicators/series/SH.DYN.MORT)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_under5 <- WDI(indicator = c(under5 = "SH.DYN.MORT"))
```

```{r eval = FALSE}
write_csv(df_under5, "data/under5.csv")
```

```{r}
df_under5 <- read_csv("data/under5.csv")
```

### データの確認

```{r}
df_under5
```

```{r}
str(df_under5)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_under5 |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_under5 |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_under5 |> drop_na(under5) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 五歳未満死亡率（1000人あたり）

```{r}
df_under5 |> filter(country == "Japan") |> 
  drop_na(under5) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_under5 |> filter(country == "Japan") |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line()
```

**気づいたこと・疑問**

-   継続的に減少している。

-   1960年ごろは40% ということは、1950年ごろは、50% ぐらいだったのだろうか。

#### b. 南部アフリカ関税同盟

```{r}
df_under5 |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_under5 |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   2000年すぎに上昇しているが、それ以外は、減少している。
-   紛争だろうか。

#### c. ラテンアメリカ４カ国

```{r}
df_under5 |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_under5 |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(under5) |>
  ggplot(aes(year, under5)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_under5 |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(under5) |>
  ggplot(aes(under5)) + geom_histogram(binwidth = 10)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_under5 |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 2.4
SAF <- df_under5 |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(under5)
df_under5 |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(under5) |>
  ggplot() + geom_histogram(aes(under5), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "五歳未満の死亡率（1000人あたり）", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_under5 |> filter(year == 2020) |> drop_na(under5) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(under5)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, under5), under5)) + geom_col() + 
  coord_flip() + labs(title = "五歳未満の死亡率（1000人あたり）", x = "country")
```

#### b. 値が小さい方から

```{r}
df_under5 |> filter(year == 2020) |> drop_na(under5) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(under5) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, under5)), under5)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", y = "under 5 mortality", x = "country")
```

# 6. 初等中等学校就学率（性差）

## データ

-   School enrollment, primary and secondary (gross), gender parity index (GPI)：SE.ENR.PRSC.FM.ZS [[Link](https://data.worldbank.org/indicator/SE.ENR.PRSC.FM.ZS)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_school_gpi <- WDI(indicator = c(school_gpi = "SE.ENR.PRSC.FM.ZS"))
```

```{r eval = FALSE}
write_csv(df_school_gpi, "data/school_gpi.csv")
```

```{r}
df_school_gpi <- read_csv("data/school_gpi.csv")
```

### データの確認

```{r}
df_school_gpi
```

```{r}
str(df_school_gpi)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_school_gpi |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_school_gpi |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_school_gpi |> drop_na(school_gpi) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の初等中等学校就学率における GPI

```{r}
df_school_gpi |> filter(country == "Japan") |> 
  drop_na(school_gpi) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_school_gpi |> filter(country == "Japan") |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line()
```

**気づいたこと・疑問**

-   1995年ごろまでは揺らぎがある。そのあとは、下降。

-   差が小さいので、あまり、気にするのは適切ではないかもしれない。

#### b. 南部アフリカ関税同盟

```{r}
df_school_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> 
  drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_school_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   ゆるやかに減少。1.0 に近づいている。

#### c. ラテンアメリカ４カ国

```{r}
df_school_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_school_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(school_gpi) |>
  ggplot(aes(year, school_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、2020年のデータは少ないので、2019年について見てみる。

```{r}
df_school_gpi |> filter(year == 2019) |> filter(!(country %in% REGION))|>
  drop_na(school_gpi) |>
  ggplot(aes(school_gpi)) + geom_histogram(binwidth = 0.02)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_school_gpi |> filter(year == 2019) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 1.00341 # no recent data after 2019
SAF <- df_school_gpi |> filter(year == 2019) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(school_gpi)
df_school_gpi |> filter(year == 2019) |> filter(!(country %in% REGION))|>
  drop_na(school_gpi) |>
  ggplot() + geom_histogram(aes(school_gpi), binwidth = 0.02) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2019年の初等中等学校就学率 GPI", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_school_gpi |> filter(year == 2019) |> drop_na(school_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(school_gpi)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, school_gpi), school_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "primary and secondary enrollment, GPI")
```

#### b. 値が小さい方から

```{r}
df_school_gpi |> filter(year == 2019) |> drop_na(school_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(school_gpi) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, school_gpi)), school_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "primary and secondary enrollment, GPI")
```

# 7. 女性就労率

## データ

-   Ratio of female to male labor force participation rate (%) (modeled ILO estimate)：SL.TLF.CACT.FM.ZS [[Link](https://data.worldbank.org/indicator/SL.TLF.CACT.FM.ZS)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_job_gpi <- WDI(indicator = c(job_gpi = "SL.TLF.CACT.FM.ZS"))
```

```{r eval = FALSE}
write_csv(df_job_gpi, "data/job_gpi.csv")
```

```{r}
df_job_gpi <- read_csv("data/job_gpi.csv")
```

### データの確認

```{r}
df_job_gpi
```

```{r}
str(df_job_gpi)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_job_gpi |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_job_gpi |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_job_gpi |> drop_na(job_gpi) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の女性就労率

```{r}
df_job_gpi |> filter(country == "Japan") |> 
  drop_na(job_gpi) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_job_gpi |> filter(country == "Japan") |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line()
```

**気づいたこと・疑問**

-   2000年ごろからは上昇している。どんな政策変更があったのだろうか。

-   このまま、上昇すると、2040年ごろには、90を超え、100に近づく。それで、問題は解決したと言えるのだろうか。

#### b. 南部アフリカ関税同盟

```{r}
df_job_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_job_gpi |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   全体的には上昇している。

#### c. ラテンアメリカ４カ国

```{r}
df_job_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_job_gpi |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(job_gpi) |>
  ggplot(aes(year, job_gpi)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_job_gpi |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(job_gpi) |>
  ggplot(aes(job_gpi)) + geom_histogram(binwidth = 10)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_job_gpi |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 74.51027
SAF <- df_job_gpi |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(job_gpi)
df_job_gpi |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(job_gpi) |>
  ggplot() + geom_histogram(aes(job_gpi), binwidth = 10) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "女性の就労率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_job_gpi |> filter(year == 2020) |> drop_na(job_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(job_gpi)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, job_gpi), job_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "labor force participation rate of ")
```

#### b. 値が小さい方から

```{r}
df_job_gpi |> filter(year == 2020) |> drop_na(job_gpi) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(job_gpi) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, job_gpi)), job_gpi)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "labor force participation rate")
```

# 8. 女性失業率

## データ

-   Unemployment, female (% of female labor force) (modeled ILO estimate)：SL.UEM.TOTL.FE.ZS [[Link](https://data.worldbank.org/indicator/SL.UEM.TOTL.FE.ZS)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_female_unemploy <- WDI(indicator = c(female_unemploy = "SL.UEM.TOTL.FE.ZS"))
```

```{r eval = FALSE}
write_csv(df_female_unemploy, "data/female_unemploy.csv")
```

```{r}
df_female_unemploy <- read_csv("data/female_unemploy.csv")
```

### データの確認

```{r}
df_female_unemploy
```

```{r}
str(df_female_unemploy)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_female_unemploy |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_female_unemploy |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_female_unemploy |> drop_na(female_unemploy) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の女性失業率

```{r}
df_female_unemploy |> filter(country == "Japan") |> 
  drop_na(female_unemploy) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_female_unemploy |> filter(country == "Japan") |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line()
```

**気づいたこと・疑問**

-   2000年ごろから、2010年ごろまで非常に高い水準になっている。何が原因なのだろう。

#### b. 南部アフリカ関税同盟

```{r}
df_female_unemploy |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_female_unemploy |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、23%程度。

#### c. ラテンアメリカ４カ国

```{r}
df_female_unemploy |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_female_unemploy |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(female_unemploy) |>
  ggplot(aes(year, female_unemploy)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_female_unemploy |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(female_unemploy) |>
  ggplot(aes(female_unemploy)) + geom_histogram(binwidth = 2)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_female_unemploy |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 2.520
SAF <- df_female_unemploy |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(female_unemploy)
df_female_unemploy |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(female_unemploy) |>
  ggplot() + geom_histogram(aes(female_unemploy), binwidth = 2) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の女性の求職率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_female_unemploy |> filter(year == 2020) |> drop_na(female_unemploy) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(female_unemploy)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, female_unemploy), female_unemploy)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "unemployment rate, female, 2020")
```

#### b. 値が小さい方から

```{r}
df_female_unemploy |> filter(year == 2020) |> drop_na(female_unemploy) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(female_unemploy) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, female_unemploy)), female_unemploy)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "unemployment rate, female, 2020")
```

# 男性失業率

## データ

-   Unemployment, male (% of male labor force) (modeled ILO estimate)：SL.UEM.TOTL.MA.ZS [[Link](https://data.worldbank.org/indicator/SL.UEM.TOTL.MA.ZS)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
```

```{r eval = FALSE}
write_csv(df_ed_exp, "data/ed_exp.csv")
```

```{r}
df_ed_exp <- read_csv("data/ed_exp.csv")
```

### データの確認

```{r}
df_ed_exp
```

```{r}
str(df_ed_exp)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の教育費（% of GDP）

```{r}
df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()
```

**気づいたこと・疑問**

-   1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

-   2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

#### b. 南部アフリカ関税同盟

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

#### c. ラテンアメリカ４カ国

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```

#### b. 値が小さい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```

# 10.  負債率

## データ

-   Net official development assistance and official aid received (current US\$) DT.ODA.ALLD.CD [[Link](https://data.worldbank.org/indicator/DT.ODA.ALLD.CD)]

### データの取得

#### 準備

```{r}
library(tidyverse)
library(WDI)
```

WDI パッケージを使って、直接データをダウンロードし、変数名を、`ed_exp` に指定。

```{r eval = FALSE}
df_ed_exp <- WDI(indicator = c(ed_exp = "SE.XPD.TOTL.GD.ZS"))
```

```{r eval = FALSE}
write_csv(df_ed_exp, "data/ed_exp.csv")
```

```{r}
df_ed_exp <- read_csv("data/ed_exp.csv")
```

### データの確認

```{r}
df_ed_exp
```

```{r}
str(df_ed_exp)
```

```{r}
REGION <- c("1A", "1W", "4E", "7E", "8S", "B8", "EU", "F1", "OE", "S1", 
"S2", "S3", "S4", "T2", "T3", "T4", "T5", "T6", "T7", "V1", "V2", 
"V3", "V4", "XC", "XD", "XE", "XF", "XG", "XH", "XI", "XJ", "XL", 
"XM", "XN", "XO", "XP", "XQ", "XT", "XU", "XY", "Z4", "Z7", "ZF", 
"ZG", "ZH", "ZI", "ZJ", "ZQ", "ZT")
```

```{r}
df_ed_exp |> filter(iso2c %in% REGION) |> distinct(country, iso2c)
```

```{r}
df_ed_exp |> filter(!(iso2c %in% REGION)) |> distinct(country, iso2c)
```

### 分析する国のリスト

#### **南部アフリカ関税同盟** The Southern African Customs Union (SACU)

```{r}
SOUTH_AFRICA_FIVE <- c("South Africa", "Namibia", "Eswatini", "Botswana", "Lesotho")
```

#### ラテンアメリカでジニ指数が大きい４カ国

```{r}
CHOSEN_COUNTRIES <- c("Suriname", "Belize", "Brazil", "Colombia")
```

## 分析

### 1. 各年毎のデータの数の棒グラフ

```{r}
df_ed_exp |> drop_na(ed_exp) |> filter(!(iso2c %in% REGION)) |>
  ggplot(aes(year)) + geom_bar()
```

## 視覚化

### 2. 日本の教育費（% of GDP）

```{r}
df_ed_exp |> filter(country == "Japan") |> 
  drop_na(ed_exp) |> arrange(desc(year))
```

### 3. 経年変化

#### a. 日本

```{r}
df_ed_exp |> filter(country == "Japan") |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line()
```

**気づいたこと・疑問**

-   1970年代の急激な上昇、1990年ごろの急激な現象は、何が原因なのだろう。

-   2014年ごろから減少、2018年ごろから増加、2020年から2021年は減少。

#### b. 南部アフリカ関税同盟

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% SOUTH_AFRICA_FIVE) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

**気づいたこと・疑問**

-   平均で見ると、上昇してきており、7% 程度という大きな割合になっている。

#### c. ラテンアメリカ４カ国

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country))
```

**参考：平均的な値を曲線で表すことも可能です。loess を使うと滑らかな曲線で近似してくれます。**

```{r}
df_ed_exp |> filter(country %in% CHOSEN_COUNTRIES) |> drop_na(ed_exp) |>
  ggplot(aes(year, ed_exp)) + geom_line(aes(col = country)) +
  geom_smooth(formula = 'y~x', method = "loess", se = FALSE)
```

### 分布

データの数から、まずは、2020年について見てみる。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot(aes(ed_exp)) + geom_histogram(binwidth = 1)
```

**参考：**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) 
```

**参考：日本と**SACU の５カ国の値を縦線で書き込むには下のようにします。

```{r}
JP <- 3.416981
SAF <- df_ed_exp |> filter(year == 2020) |> filter(country %in% SOUTH_AFRICA_FIVE) |> pull(ed_exp)
df_ed_exp |> filter(year == 2020) |> filter(!(country %in% REGION))|>
  drop_na(ed_exp) |>
  ggplot() + geom_histogram(aes(ed_exp), binwidth = 1) +
  geom_vline(xintercept = SAF, col = "red") + geom_vline(xintercept = JP, col = "blue") +labs(title = "2020年の教育費の対GDP百分率", subtitle = "日本：青、SACU：赤")
```

### データが十分ある最近の年の値の10カ国の値の棒グラフ

#### a. 値が大きい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(desc(ed_exp)) |> head(10) |> 
  ggplot(aes(fct_reorder(country, ed_exp), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Top 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```

#### b. 値が小さい方から

```{r}
df_ed_exp |> filter(year == 2020) |> drop_na(ed_exp) |> 
  filter(!(iso2c %in% REGION))|>
  arrange(ed_exp) |> head(10) |> 
  ggplot(aes(fct_rev(fct_reorder(country, ed_exp)), ed_exp)) + geom_col() + 
  coord_flip() + labs(title = "Lowest 10 Countries", x = "country", y = "Government expenditure on education, total (% of GDP)")
```
